Outlier Detection এবং Missing Value Handling

Machine Learning - এইচ২ও (H2O) - Exploratory Data Analysis (EDA)
264

ডেটা প্রক্রিয়াকরণের প্রাথমিক পদক্ষেপগুলির মধ্যে Outlier Detection (আউটলাইয়ার সনাক্তকরণ) এবং Missing Value Handling (মিসিং ভ্যালু হ্যান্ডলিং) অত্যন্ত গুরুত্বপূর্ণ। ডেটার গুণগত মান উন্নত করতে এবং মডেল ট্রেনিংয়ের ক্ষেত্রে সঠিক ফলাফল পাওয়ার জন্য এই দুটি ধাপ অবশ্যই প্রয়োজনীয়।


১. Outlier Detection (আউটলাইয়ার সনাক্তকরণ)

আউটলাইয়ার হলো সেই ডেটা পয়েন্ট বা ভ্যালু যা বাকী ডেটার থেকে উল্লেখযোগ্যভাবে পৃথক বা দূরে অবস্থান করে। আউটলাইয়ার সনাক্তকরণ গুরুত্বপূর্ণ, কারণ আউটলাইয়ার ডেটা মডেলের ফলাফল বা বিশ্লেষণে ভুল প্রভাব ফেলতে পারে।

আউটলাইয়ার সনাক্তকরণের পদ্ধতি

  1. Statistical Methods (সংখ্যাত্মক পদ্ধতি):
    • Z-Score Method: Z-স্কোর ডেটার বর্তমান ভ্যালু এবং তার গড় থেকে কতটুকু দূরে তা নির্ধারণ করে। সাধারণত Z-স্কোর ±3 এর বাইরে থাকলে তা আউটলাইয়ার হিসেবে চিহ্নিত করা হয়।

      from scipy import stats
      import numpy as np
      data = np.array([10, 12, 15, 22, 98, 10, 14, 15, 12, 11])
      z_scores = np.abs(stats.zscore(data))
      outliers = np.where(z_scores > 3)
      print(outliers)
      
  2. IQR (Interquartile Range) Method: IQR পদ্ধতিতে ডেটার ২৫% এবং ৭৫% কোয়ান্টাইল এর মধ্যে পার্থক্যকে ব্যবহার করে আউটলাইয়ার সনাক্ত করা হয়। যদি একটি ডেটা পয়েন্ট Q1 - 1.5 * IQR এর চেয়ে কম বা Q3 + 1.5 * IQR এর চেয়ে বেশি হয়, তবে সেটি আউটলাইয়ার হিসেবে চিহ্নিত করা হয়।

    import numpy as np
    data = np.array([10, 12, 15, 22, 98, 10, 14, 15, 12, 11])
    Q1 = np.percentile(data, 25)
    Q3 = np.percentile(data, 75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = [x for x in data if x < lower_bound or x > upper_bound]
    print(outliers)
    
  3. Visualization Methods (ভিজ্যুয়াল পদ্ধতি):
    • Box Plot: এটি আউটলাইয়ার সনাক্ত করার জন্য একটি জনপ্রিয় পদ্ধতি। যখন ডেটা বক্স প্লটে দেখানো হয়, তখন বাহিরের "whiskers" এর বাইরে অবস্থানকারী পয়েন্টগুলি আউটলাইয়ার হতে পারে।
    • Scatter Plot: দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখতে স্ক্যাটার প্লট ব্যবহৃত হয়। আউটলাইয়ারগুলো স্ক্যাটার প্লটের বাইরে দৃশ্যমান হতে পারে।

আউটলাইয়ার হ্যান্ডলিং

  1. Remove Outliers (আউটলাইয়ার অপসারণ): অনেক সময় আউটলাইয়ার ডেটা মডেলিং প্রক্রিয়ায় অপ্রয়োজনীয় বা বিভ্রান্তিকর ফলাফল দেয়। সেক্ষেত্রে আউটলাইয়ারগুলো সরিয়ে ফেলা যেতে পারে।
  2. Cap or Transform Outliers (আউটলাইয়ার ক্যাপ বা রূপান্তর): আউটলাইয়ারগুলোকে নির্দিষ্ট মানে ক্যাপ (যেমন ১, ১০০) করা যেতে পারে অথবা লঘু বা শক্তিশালী রূপান্তর (যেমন লগ ট্রান্সফর্মেশন) করা যেতে পারে।

২. Missing Value Handling (মিসিং ভ্যালু হ্যান্ডলিং)

মিসিং ভ্যালু বা অনুপস্থিত ডেটা যেকোনো ডেটাসেটে সাধারণ সমস্যা। সঠিকভাবে মিসিং ভ্যালু হ্যান্ডলিং না করলে মডেলিংয়ের প্রক্রিয়া বিপর্যস্ত হতে পারে এবং ফলস্বরূপ সঠিক পূর্বাভাস পাওয়া কঠিন হয়ে পড়তে পারে।

মিসিং ভ্যালু হ্যান্ডলিং এর পদ্ধতি

  1. Remove Missing Values (মিসিং ভ্যালু অপসারণ): মিসিং ভ্যালু বিশাল পরিমাণে যদি না থাকে, তবে সম্পূর্ণ সারি বা কলাম অপসারণ করা যেতে পারে।

    import pandas as pd
    df = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, 6, 7, 8]})
    df = df.dropna()
    print(df)
    
  2. Imputation (ইম্পিউটেশন): মিসিং ভ্যালু প্রতিস্থাপন করার জন্য কিছু পদ্ধতি রয়েছে:
    • Mean/Median Imputation: কন্টিনিউয়াস ডেটার জন্য মিসিং ভ্যালুগুলো গড় (mean) বা মধ্যম (median) মান দিয়ে পূর্ণ করা যায়।

      df['A'] = df['A'].fillna(df['A'].mean())
      
    • Mode Imputation: ক্যাটেগরিক্যাল ডেটার জন্য মিসিং ভ্যালুগুলো সর্বাধিক পুনরাবৃত্ত মান দিয়ে পূর্ণ করা হয়।

      df['B'] = df['B'].fillna(df['B'].mode()[0])
      
    • KNN Imputation: K-Nearest Neighbors (KNN) অ্যালগরিদম ব্যবহার করে মিসিং ভ্যালুগুলো সন্নিহিত নিকটতম সিমিলার রেকর্ড থেকে পূর্ণ করা যেতে পারে।
    • Regression Imputation: একটি রিগ্রেশন মডেল ব্যবহার করে, মিসিং মানটি পূর্ববর্তী বৈশিষ্ট্যগুলির উপর ভিত্তি করে পূর্ণ করা যেতে পারে।
  3. Predictive Modelling (প্রীডিক্টিভ মডেলিং): মিসিং ভ্যালুগুলোর জন্য একটি বিশেষ মডেল তৈরি করা যেতে পারে, যা পূর্ববর্তী ডেটা ব্যবহার করে মিসিং ভ্যালুগুলোর মান অনুমান করবে।

সারাংশ

  • Outlier Detection এর মাধ্যমে এমন ডেটা পয়েন্ট সনাক্ত করা হয়, যা অন্যান্য ডেটার থেকে অনেকটাই আলাদা। আউটলাইয়ার সনাক্ত করতে Z-Score, IQR, এবং ভিজ্যুয়াল পদ্ধতি ব্যবহৃত হয়। আউটলাইয়ার হ্যান্ডলিং করতে আউটলাইয়ারগুলো মুছে ফেলা বা ক্যাপ করা যেতে পারে।
  • Missing Value Handling এর মাধ্যমে মিসিং ভ্যালুগুলো পূর্ণ করা হয়। সাধারণ পদ্ধতি হিসেবে মিডিয়ান/মিন ইম্পিউটেশন, মোড ইম্পিউটেশন, এবং কাস্টম মডেলিং ব্যবহার করা যায়।

এই প্রক্রিয়াগুলি সঠিকভাবে অনুসরণ করলে ডেটার গুণগত মান বৃদ্ধি পায় এবং মডেলিংয়ে আরও সঠিক ফলাফল পাওয়া যায়।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...